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基于 文本 聚 类 与 兴趣 衰减 的 微 博 用 户 兴趣 挖掘 方法 ， 
秦 永 彬 **， 孙 玉 洁 *"， 魏 笑 * 


(贵州 大 学 a. 计算 机 科学 与 技术 学 院 ;b. 贵州 省 公共 大 数据 重点 实验 室 , 贵阳 550025) 


摘 要 : 微 博 平台 隐 含 潜在 的 用 户 信 息 ， 通 过 微 博 数 据 挖 气 用 户 兴 趣 具 有 重要 的 社会 意义 。 结 合用 户 兴趣 与 微 博 信息 
的 特点 ， 提 出 了 一 种 文本 聚 类 与 兴趣 衰减 的 微 博 用 户 兴趣 挖掘 《TCID-MUIM) 方法 。 首 先 ， 通 过 基于 词 林 的 同义词 合 
并 策略 弥补 建 模 时 词 频 信息 不 足 的 次 端 ， 其次， 利用 二 次 Single-Pass 不 完全 聚 类 算法 将 用 户 微 博 划 分 为 多 个 化 ,将 徐 
合并 为 同一 文档 以 弥补 微 博文 本 短小 难以 挖掘 主题 信息 的 问题 ; 最 后 ,通过 LDA 模型 建 模 ， 并 考虑 用 户 兴 趣 随 时 间 变 
化 的 问题 ， 引 入 时 间 因 子 ， 将 微 博 一 主题 矩阵 压缩 为 用 户 一 主题 矩阵 ， 获 取 用 户 兴趣 。 实 验 表明 ， 较 之 传统 建 模 方法 
与 合并 用 户 历史 微 博 为 同一 文档 的 建 模 方 法 ，TCID-MUIM 方法 挖掘 的 用 户 兴 趣 主 题 具 有 更 好 的 主题 区 分 度 ， 且 更 贴 
合用 户 的 真实 兴趣 偏好 。 
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Microblog user interest mining based on text clustering and interest decay 
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550025, China) 


Abstract: Microblog platform contains potential user's information, through microblog data mining microblog user interest has 

OO important social significance. On account of the characteristics of user interest and microblog information, this paper put forward 

\ a method of microblog user interest mining based on text clustering and interest decay(TCID-MUIM) . Firstly, it used the 
synonyms combined strategy based on Tongyici Cilin to make up for the process of modeling the lack of word frequency 
information. Secondly, it used the double single-pass incomplete clustering algorithm to make up the problem that the microblog 
text was Shorter so that difficult to dig the topic information. Finally, it used the LDA model modeling, as well as considering 
the user's interest changes with time, by introduction of time factor compresses the microblog-topic matrix into the user-topic 
matrix to gain user interest. Experimental results show that compared to traditional modeling methods and the modeling methods 
of merger user's all history microblog as the same document, the TCID-MUIM method presented which modeling results have 
a higher topic's differences and closer to the user's real interest preferences. 
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着 用 户 使 用 微 博 的 主要 目的 是 在 微 博 平 台 上 获取 自己 感 兴趣 的 
内 容 。 然 而 微 博 平台 存在 “信息 过 载 ” 问 题 ， 用 户 很 难 在 海量 
言 息 技 术 的 飞速 发 展 与 互联 网 的 广泛 应 用 ， 促 使 了 微 博 、 微 博信 息 中 获取 感 兴趣 的 信息 。 个 性 化 推荐 通过 对 用 户 信 息 的 
微 信 等 具有 强大 交互 性 的 网 络 社交 平台 的 深入 应 用 并 使 其 融入 ”挖掘 有 针对 性 地 为 用 户 推荐 有 效 的 微 博信 息 ， 是 解决 上 述 问题 
了 人 们 的 社会 化 生活 。 微 博 ， 作 为 一 个 以 用 户 为 主体 进行 信息 。 的 有 效 方法 .在 此 过 程 中 , 用 户 兴趣 挖掘 是 为 用 户 进行 个 性 化 信 
分 享 的 广播 式 社交 网 络 平台 ， 由 于 信息 发 布 便捷 、 内 容 形式 多 ， 息 推荐 的 前 提 。 因 此 ， 本 文 以 微 博 平 台 的 用 户 兴 趣 挖掘 为 研究 
样 、 名 人 效应 等 特点 聚集 了 2.71 亿 用 户 贴 ， 微 博 已 成 为 人 们 获 ”内 容 。 
取信 息 、 交 流 信息 的 重要 工具 。 调 查 显 示 ， 微 博 用 户 关注 的 内 针对 微 博 平台 用 户 兴 趣 挖掘 ， 许 多 学 者 展开 了 相关 研究 工 
容 倾向 于 基于 兴趣 的 垂直 细 分 领域 赔 ， 且 微 博 平 台 上 61.9% 的 作 。 针 对 建 模 文本 的 选择 问题 ，Chen 等 人 Bl 比较 了 用 户 历史 微 
用 户 只 浏览 、 点 赞 、 评 论 或 转发 , 基本 不 发 原创 微 博 外 , 这 意味 专文 本 及 用 户 粉丝 的 微 博文 本 用 于 用 户 兴 趣 挖掘 的 效果 ， 发 现 
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基于 用 户 历 史 微 博文 本 构建 的 模型 
博文 本 长 度 短 影响 挖 扩 


户 兴趣 。 针 对 微 


晶 更 能 表达 用 


效果 的 问题 ，Abel 等 人 四 通过 引入 外 部 


语 料 ( 网 页 链接 ) 扩展 微 博信 息 ， 提 取 能 反映 用 户 兴趣 的 关键 
字 ; Hong 等 人 名 提出 了 三 种 主题 模型 训练 方法 , 其 实验 证 明 : 


合并 用 户 所 有 微 博 为 一 个 文档 
个 文档 或 合并 相同 标签 的 微 博 为 
地 训练 主题 模型 。 
方法 所 获取 的 数 提 


] 于 建 模 相 较 于 一 条 微 博 作为 一 
个 文档 进行 建 模 ， 能 更 有 效 
上 述 方法 中 ， 通 过 网 页 链接 引入 外 部 语 料 的 


建 模 效 果 ; 1 
去 微 博文 本 边界 ， 
在 微 博 平台 的 热点 话题 与 


等 人 [%7 通 过 LDA 模型 与 文本 聚 类 相 结合 的 方法 ， 将 具有 相似 


话题 的 微 博 聚 集成 饼 ， 分 别 实现 微 博 平台 的 热点 话题 检测 及 微 


sk 


户 历 史 微 
使 得 建 模 后 主题 


硬 


非 全 部 与 微 博文 本 内 容 高 度 相 关 ， 会 影响 
十 为 同一 文档 的 建 模 方法 强行 抹 
区 分 度 变 低 。 
言 息 检索 领域 ， 刘 红 兵 和 唐 晓 波 


建 模 过程 中 词 频 


复 ， 将 通 合 


特征 的 文本 建 模 


法 ， 通 过 记忆 


以 弥补 微 博文 本 短小 难以 挖掘 主题 
有 优秀 的 降 维 能 力 , 用 于 


化 的 问题 ， 提 出 基于 时 间 


值 将 微 博 一 主题 矩阵 压缩 为 用 广 


准确 地 表达 用 


E 题 。 


1 ”LDA 模型 及 用 户 兴趣 表达 


LDA 模型 是 
叶 斯 模型 ， 它 


汇 的 集合 ， 忽 
间 独 立 可 交换 。LDA 模型 的 基本 思想 是 ， 
述 文档 的 主题 构成 ， 每 个 主题 下 是 


生成 文本 的 方式 可 以 用 LDA 模型 


博信 息 的 有 效 检索 。 该 方法 提供 了 解决 微 博文 本 长 度 短 影响 挖 
掘 效果 的 新 思 
在 上 述 研究 
间 衰 减 的 微 博 月 
decay for microblog userinterest mining，TCID-MUIM)。 该 方法 
通过 同义词 合并 策略 ， 弥 亲 
通过 二 次 Single-Pass 不 完全 聚 类 算法 ， 将 用 
为 同一 文档 ， 
信息 的 问题 。 考 虑 到 LDA 主题 模型 具 
微 博 等 具有 稀疏 特 
通过 LDA 模型 对 多 个 微 博文 本 进行 
趣 会 随时 间 变 


1 上 ， 本 文 提 出 了 一 种 基于 文本 聚 类 与 时 
户 兴 趣 挖 志 


届 方 法 (text clustering and interest 


息 不 足 的 次 端 ; 
微 博 划 分 为 多 个 


定 优 势 由 ， 因 此 选择 
建 模 。 同时, 考虑 到 用 户 兴 
子 的 主题 矩阵 压缩 方 


主题 矩阵 ， 


也 是 一 种 概率 4 


种 包含 文档 层 、 词 汇 层 和 


主题 层 的 三 层 贝 


E 成 模型 。 在 LDA 模型 中 , 文档 的 


生成 前 提 是 词 袋 模型 (bag-ofwords)， 其 把 文档 看 成 是 一 系列 词 
略 文中 的 语法 和 词汇 的 出 现 j 


贰 序 ， 使 得 词 与 词 之 


篇 文档 由 一 系列 描 


总 


秦 永 彬 ， 等 : 


是 对 D, 中 


述 主题 的 词汇 ， 其 


图 1 


档 的 生成 为 例 ， 


先 验 分 布 中 


抽取 天 个 了 


E 题 对 应 的 词 》 


中 MM 个 文档 的 4 


A 


数 为 a 的 Dirichlet 先 验 分 布 中 抽 
据 主 题 分 布 概率 0, ， 从 天 个 主题 中 
主题 zwn 对 应 
骤 c)d)n 次 ， 直 到 生成 文档 中 全 部 的 N， 
在 LDA 模型 中 ，ws 是 可 观 涡 
给 定 的 先 验 参数 ,文档 的 3 
是 需要 推断 的 未 知 参数 ,可 通过 变 分 贝 叶 其 


[分 布 9;,, 中 


的 贝 叶 斯 网 络 图 表示 。 

E 成 过 程 。 以 第 m 个 文 
生成 步骤 如 下 : a) 从 参数 为 B 的 Dirichlet 
[分 布 ={9.}t1;b) 从 参 
取 文 档 的 主题 分 布 0,; c) 根 


区 一 个 主题 zwn ; d) 从 


取 一 个 词汇 


| 的 数 和 


WA e) 重复 步 


呈 ，&% 和 BB 是 根据 经 验 
FE 题 分 布 8 及 主题 下 的 词汇 分 布 @ 都 


期 望 最 大 化 算法 “、 


为 特征 词 
(如 LDA) 对 W 进 
及 主题 一 词 
分 布 ， 如 图 3 所 示 。 


法 


图 1 LDA 模型 的 


ChinaX 


naXiv 
基于 文本 聚 类 与 兴趣 衰减 的 微 博 用 户 兴 趣 挖 据 方 法 


贝 叶 斯 网 络 图 


合 { WA | 


斯 采样 (Gibbs sampling) "等 参数 推导 方法 进行 参数 估 


微 博 平台 的 用 


通过 LDA 构建 微 博 用 户 兴 趣 模型 时 , 若 输 入 的 语 料 是 M 条 
表示 为 词 袋 模型 的 微 博 文本 W , 事先 给 定 先 验 参数 & 、B 及 需 
要 划分 的 主题 数 及 ， 可 训练 得 到 用 于 表达 用 户 兴 趣 的 微 博 一 主 

E 阵 9 、 主 题 一 词汇 矩阵 @ ， 如 图 2 所 示 。 
词 汇 主 题 
词 汇 

微 _ 微 主 

博 Ww 博 9 ” 是 2 
K*V 

M*V M*K 
图 2 基于 LDA 模型 的 用 户 兴 趣 表达 


基于 文本 聚 类 与 兴趣 衰减 的 微 博 用 户 兴趣 挖掘 算 


的 文本 进行 
的 集合 W, = {WsW 


户 兴趣 挖掘 可 描述 为 : 假定 用 户 的 MM 条 历 
史 微 博文 本 集 D, ={d,1, dd, di } o 


对 用 户 4 的 兴趣 挖掘 首先 


针对 性 的 预 处 理 , 把 每 条 微 博文 本 表示 
2 Wm}; 然后 通过 主题 建 模 方法 
行 兴 趣 主题 建 模 ， 获 取 微 博 一 主题 矩阵 ©， 
[矩阵 四, 。 其 


H ，@, 描述 了 每 条 微 博 的 主题 概率 
主题 
了 .2 Tix 
pu Pr Pir 
Px PP» P2k 
Pu Pm3 PNMK 


图 3 微 博 -主题 矩阵 9， 
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但 很 难 
在 控 气 


3 中 , 6, 表达 了 每 一 条 用 户 历史 微 博 的 主题 概率 分 布 ， 
理解 为 用 户 自 身 的 兴趣 主题 分 布 。 除 此 之 外 ，LDA 虽然 
文本 主题 方面 具有 一 定 优势 ， 但 微 博 本 身 的 一 些 固 有 特 


为 用 户 兴 趣 挖掘 带 来 了 以 下 问题 ; 


点 还 是 
a) 
天 。 天 


针对 微 博文 档 集 进 行 LDA 建 模 时 , 需要 预先 设 定 主 题 数 
的 选取 对 于 兴趣 建 模 效果 具有 很 大 影响 ，K 的 过 小 和 过 


大 都 会 导致 主题 检测 的 不 准确 。 针 对 此 问题 普遍 的 解决 方法 是 


通过 主题 差异 性 确定 K 取 值 。 但 微 博 平台 用 户 量 大 ， 对 每 个 用 
六 都 通过 此 办 法 测定 取 值 会 带 来 算法 复杂 度 大 、 兴 趣 挖掘 效 
率 低 的 问题 。 

b) 由 于 微 博文 本 具有 长 度 较 短 、 内 容 形 式 丰 富 多 样 、 语 言 
不 规范 、 网 络 流行 语 多 等 特点 ， 使 得 提取 特征 后 用 于 兴趣 建 模 
的 用 户 语 料 的 词 频 信 息 及 上 下 文 信息 严重 缺乏 ， 影 响 微 博文 本 


的 主题 
Ca 


通过 在 
不 完全 


问题 ， 


2.1 同义词 合并 策略 


对 
进行 去 


本 文 将 在 LDA 模型 的 基础 上 提出 TCID-MUIM 挖掘 方法 ， 


建 模 效 果 。 
没有 考虑 到 用 户 的 兴趣 随时 间 变 化 的 特点 。 


LDA 建 模 前 后 引入 同义词 合并 策略 、 二 次 Single-pass 
聚 类 算法 、 基 于 时 间 因 子 的 主题 矩阵 压缩 方法 解决 上 述 


用 于 挖掘 用 户 兴趣 主题 。 


于 微 博 平 台 的 用 户 兴 趣 挖掘 ， 首 要 步骤 就 是 对 微 博文 本 
噪 处 理 、 分 词 处 理 、 停 用 词 处 理 、 去 除 低 频 词 及 单字 词 


等 预 处 


时 操作， 将 每 条 微 博 文本 表示 为 特征 词 的 集合 。 然 而 微 


博文 本 
频 信息 


词 林 》 


较 短小 且 长 尾 特征 明显 ， 去 除 低频 词 会 使 建 模 过 程 中 词 
不 足 的 间 题 进一步 加 剧 。 因 此 ， 本 文通 过 基于 《同义词 
的 同义词 合并 策略 ， 将 用 户 微 博文 本 中 存在 的 低频 词 合 


到 高 


| 
频 词 、 单 字 词 合并 到 多 字 词 ， 对 部 分 低频 词 及 单字 词 进 


1 所 示 。 


算法 1 同义词 合并 策略 


A 


EE 


=. 
天 
光 


输入 : 用 户 的 微 博 文本 集 D, ={d dd 。 
偷 出 ， 处 理 后 的 微 博文 本 集 W, = {Wi, Ww,…, Wum】。 


步骤 1 对 用 户 微 博文 本 集 D, 进行 预 处 理 ， 建 立 用 户 词 库 V, ， 并 根据 巴 
处 理 后 文本 集 D, 中 词汇 的 出 现 次 数 统计 用 户 词 库 中 词汇 的 词 频 。 


步 又 2 设 定 阔 值 0 ， 将 用 户 词 库 凤 中 词汇 词 频 大 于 等 于 。 的 词 放 入 高 


频 词 表 , 低 于 的 词 放 入 低频 词 表 ; 并 将 WV 中 出 现 的 单字 词 放 入 低频 词 


表 。 


步骤 3 根据 《同义词 词 林 》 中 的 词语 编码 位 , 将 第 8 位 中 符号 位 为 “#” 
的 同类 词 和 符号 位 为 “@” 的 独立 词 词 行 剔除 ， 只 保留 符号 位 为 “=” 的 


同义词 词 行 。 


步 又 4 根据 高 频 词 表 中 词汇 词 频 从 高 到 低 的 顺序 为 词汇 进行 统一 编号 
C = 和 ,2,…,i,…,n} ， 从 编号 为 1 的 高 频 词 开始 , 将 高 频 词 与 《同义词 


匹配 恰好 一 次 。 


词 林 》 进 行 匹 配 。 若 高 频 词 与 词 林 匹 配 成 功 , 则 将 匹配 成 功 的 词 行 作为 


高 频 词 的 背景 词 行 ; 否则 , 跳 到 下 一 个 高 频 词 , 直到 所 有 高 频 词 与 词 林 


步骤 5 从 编号 为 1 的 高 频 词 


始 , 将 低频 词 按 词汇 词 频 从 高 到 低 的 编号 


次 序 与 高 频 词 背景 词 行 中 的 词汇 进行 匹配 ， 匹 配 成 功 ， 则 赋予 低频 词 与 
该 高 频 词 相同 的 词汇 编号 ， 并 在 中 间 词 表 中 加 入 该 词 ， 从 低频 词 表 中 册 


除 该 词 ， 直 到 所 有 高 频 词 的 背景 词 行 都 与 低频 词 表 中 的 词汇 匹配 恰好 一 


步骤 6 将 经 过 步骤 5 后 低频 词 


步骤 7 利用 高 频 词 表 及 中 间 词 


表 中 仍 存 在 的 词汇 加 入 用 户 停 用 词 表 , 使 


用 户 停 用 词 表 对 经 过 第 一 次 预 处 理 的 用 户 微 博文 本 集 再 去 一 次 停 用 词 


表 中 词 及 编号 的 对 应 关系 ， 将 经 过 步骤 6 


处 理 的 用 户 微 博文 本 集中 的 词汇 变换 为 编号 ; 再 利用 高 频 词 表 中 词 及 编 


行 合理 

《 
类 义 词 
展 版 收 
划分 为 
表 1 所 


利用 。 
同义词 词 林 》00 是 梅 家 驹 先生 等 人 按 意 义 进行 编排 一 部 
和， 包含 一 个 词语 的 同义词 以 及 其 广义 的 相关 词 ， 其 扩 
录 词 语 7 万 余 条 。 词 林 以 词义 为 主 ， 兼 顾 词 类 ， 把 词语 
5 级 结构 ， 不 同等 级 通过 不 同 的 编码 表示 。 具 体 标记 如 
示 。 


表 1 词语 编码 


号 的 对 应 关系 , 通过 反 变换 将 编号 转换 为 词汇 ,实现 从 低频 词 到 高 频 词 、 


步骤 8 输出 同义词 合并 后 的 微 


2.2 二 次 Single-pass 不 完 


单字 词 到 多 字 词 的 同义词 合并 。 


博文 本 集 W 。 
全 聚 类 算法 


Single-pass 聚 类 算法 又 称 单 通道 法 或 单 遍 法 ， 是 一 种 简单 
的 增 量 聚 类 算法 。 通 过 数据 对 象 的 出 现 次 序 依 次 进行 聚 类 处 理 ， 
根据 相似 度 值 进行 匹配 。 若 相似 度 值 大 于 事先 设 定 的 阔 值 ， 则 
将 数据 对 象 归 入 该 类 艇 ;否则 将 该 数据 对 象 作为 一 个 新 的 聚 类 


Single-pass 聚 类 可 随 着 文本 数量 的 增多 而 动态 地 变化 ， 适 


于 用 户 微 博 列 表 不 断 增多 


的 微 博 聚 类 。 但 具有 明显 的 次 序 依 


上 
赖 的 问题 ， 可 能 导致 较 早 完成 遍历 的 微 博 因 为 与 之 前 得 到 的 话 


题 的 相似 度 略 低 于 阔 值 而 被 重新 创建 了 新 的 话题 ， 影 响 聚 类 效 


簇 。 
编码 位 1 | 2 | 3 | 4 5 | 6 | 7 8 
符号 举例 D | 有 | : 5 B | o | 2 =\#\@ 
符号 性 质 | 大 类 | 中 类 小 类 词 群 | 原子 词 姑 
级 别 第 ! 级 | 第 2 级 | 第 3 级 第 4 级 | 第 5 级 
表 中 的 编码 位 是 按照 从 左 到 右 的 顺序 排列 。 在 第 五 级 (6、 
7 位 ) 中 , 每 个 分 类 里 词语 数量 已 较 少 , 难以 进一步 进行 分 割 ， 


称 为 原 


果 。 因 此 ， 本 文采 用 二 次 Single-pass 算法 对 用 户 微 博文 本 进行 
聚 类 。 同 时 , 考虑 到 用 户 兴 趣 在 一 定时 间 内 具有 一 定 的 内 聚 性 ， 


子 词 群 或 原子 节点 。 而 编码 位 的 第 8 位 仅 是 标记 位 ， 


有 “= 区 “@” 三 种 标记 ， 分 别 代表 词 行 [9 同 义 ” [9 同类 ” 


“独立 


的 同 义 


” 通过 词 林 中 标记 为 “=” 的 同义词 行 可 以 实现 对 词汇 
词 蔡 换 。 


2 


于 《同义词 词 林 》 的 同义词 合并 策略 的 具体 步骤 如 算法 


在 一 定时 间 段 内 发 布 或 转发 


的 微 博 文本 可 能 属于 同一 类 别 ， 兴 


趣 方向 变化 不 大 ， 因 此 第 一 次 Single-pass 聚 类 时 仅 通过 时 间 标 


记 将 后 续 输 入 的 文本 与 前 面 时 间 标 记 最 近 的 m 个 簇 进行 相似 


因此 第 二 次 Single-pass 聚 类 


生 比 较 。 考 虑 到 用 户 微 博 列 表 中 的 微 博文 本 主题 方向 较 杂 乱 ， 


时 , 不 对 第 一 次 Single-pass 聚 类 的 
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微 博 孤 点 进行 处 理 ， 使 用 不 完全 聚 类 0 的 方法 进行 聚 类 。 

于 微 博文 本 特征 词 较 少 ， 所 以 选择 Jaccard 相似 系数 作 
为 聚 类 算法 中 相似 度 的 计算 基础 。 对 于 给 定 的 词 集 A、B， 
Jaccard 相似 系数 的 计算 公式 为 


ne 


AMB 
AUB 


若 簇 的 微 博 集 合 为 cx ={Wi,W,,…,Wi} ， 其 对 应 词 集 为 
A ={A A,… A,}， 4 为 Ww 对 应 的 词 集 , 其 中 i=12,…,k。 
目标 微 博 w 对 应 的 词 集 为 B,, ， 则 第 一 次 Single-pass 聚 类 
时 ， 微 博 与 簇 间 的 相似 度 计算 公式 可 定义 如 下 : 


sim( A, ,B, ) 二 7 x Ssim, (人 ,B, )} (2) 


在 式 〈2) 中 ， 通 过 计算 B,, 与 微 博 簇 A 的 平均 相似 度 值 
来 衡量 目标 微 博 w 与 饼 cx 间 的 相似 度 。 

相同 地 ， 簇 cx ={ww…wr 与 艇 co ={wbw…w 间 
的 相似 度 计算 公式 定义 如 下 : 


Sim, (4,B) 三 


zt 


ul 


sim (A,A, )= 2 > sm (4 时 G) 
1<j<1 


二 次 Single-pass 不 完全 聚 类 算法 的 具体 步骤 如 算法 2 所 


算法 2 ”二 次 Single-pass 不 完全 聚 类 算法 


输入 : 用 户 u 的 微 博文 本 集 W, ={w ww ， 阔 值 z，<， 


比较 次 数 m 。 


罗 


输出 ， 簇 文本 及 微 博 于 点 的 集合 W” = {wii, wi,.……， Wo} 和 天 值 。 


步骤 1 将 微 博文 本 wu 的 发 布 时 间 设 置 为 其 时 间 标记 如 ， 其 中 
i=1,2,…,M 。 按 时 间 标 记 tbz,…sbiwy 的 顺序 输入 微 博 文本 
wp WoW ， 其 中 tw 为 最 新 一 条 微 博 的 发 布 时 间 。 针 对 W, ; 
行 处 理 得 到 对 应 的 词 集 4w = {Ay,,, A,,,… A }。 

步骤 2 当 i=1， 簇 数 J =1 时 ， 将 时 间 标 记 为 加 的 微 博文 本 Wi 作为 
第 一 个 聚 类 簇 c ， 即 c = {W} ， 执 行 i=i+1 ， 转 到 步骤 3。 
步骤 3 当 isM 时 ， 则 根据 式 (2) 计算 


Ww 


若 J>m ， 


a;= max {sim (A A ) 


J—mgj<] 


否则 根据 式 (2) 计算 


qj = max {sim (A,,As,)】。 着 > ， 则 转 到 步骤 3.1; 否则 转 到 步 


1<j<J 


骤 3.2。 

步骤 3.1 更 新 cj = cj wu ， 用 微 博 ww 的 时 间 如 标记 更 新 能 cj 的 
时 间 标 记 ， 执 行 i=i+1 ， 转 到 步骤 3。 

步骤 3.2 执行 =J +1， 建立 新 秘 cy={Wwu} ,将 时 间 标 记 为 如 的 微 
博文 本 ww 作为 新 能 cy 的 时 间 标记 ， 执 行 i=i+1 ， 转 到 步 又 3。 

步 台 4 执行 C=fc:lcP21<sjJs7 以 及 
C={cj:|c 上 Fl 1 j<J}， 转 到 步 又 5。 

步骤 5 将 能 族 C 重新 标记 为 C” = {c jiG ， 按 时 间 标记 6,…sic 的 
顺序 输入 微 博 徐 族 C”， 其 中 石 为 离 当 前 时 间 最 近 的 时 间 标 记 。 将 C" 对 


三 . 
天 
光 


Idl 
S| 


-1 ， 这 里 的 A 为 c; 对 应 的 词 集 。 


应 的 词 集 记 为 4- ={4..} 


步骤 6 当 8=1， 簇 数 了 =1 时 ， 将 时 间 标 记 为 二 的 复 c 作为 第 一 个 聚 
类 簇 ci ， 执 行 s =s+1， 转 到 步骤 7。 


I 


步骤 7 


5s |C” | 时, 根据 式 (3) 计算 书 =max [sim(A.,A. ) ， 若 


b, >T ， 则 转 到 步骤 7.1， 和 否则 ， 转 到 步骤 7.2。 和 否则 ， 转 到 步骤 8。 
步骤 7.1 更 新 c =c Uc ， 执 行 9?=8+1， 转 到 步骤 7。 

步骤 7.2 执行 T= 了 +1, 更 新 艇 cj=c; ,执行 $=s 二 1, 转 到 步骤 7。 
步骤 8 将 步骤 7 的 结果 按照 秘 内 微 博 数 的 数目 从 大 到 小 排序 ,并 将 排序 
结果 标记 为 C”= {c ,C2 ,…,C7} ,将 C” 中 的 了 个 微 博 簇 分 别 合并 为 
了 个 秘 文 本 Wi,W;,…, Wi ， 簇 的 时 间 标 记 作 为 该 文本 的 时 间 标记 。 
步骤 9 初始 时 =1 ,计算 a=|cr |/M ， 若 互 关 和， 则 输出 天 ， 和 否则 
执行 玉 = 玉 二 1， 转 到 步骤 16。 


步骤 18 当 玉 <7 时, 计算 ck=> cx|Ce |/M ,车 Ex < 亏 ， 则 执行 


玉 = 玉 上 +1:; 否则 ， 输 出 玉 。 
步骤 11 执行 三 = Cl {wi,W2,.…,W)} ， 将 W, 的 结果 重新 标记 为 


Wi ={Wis Wo Wo} ， 时 2 了 CI+7。 


注 : 在 步骤 1 中 ， 如 . 中 的 ,为 Wi 对 应 的 词 集 ， 其 中 
i=1,2,…,M 。 步 又 2 一 3. 2 完成 第 一 次 Single-Pass 聚 类 。 在 


步骤 3 中 ，aj 的 下 标 j 表示 max (sim(A,,A,,) 或 


max {sim(A,,A,, )】 取 得 最 大 什 的 下 标 。 在 步 又 4 中 ，C 表示 


JJ 一 PSJSJ 


微 博 数 大 于 等 于 2 的 微 博 簇 族 ，Ci 表示 簇 内 微 博 数 等 于 1 的 孤 
点 簇 族 。 步 又 6~7.2 完成 第 二 次 Single-Pass 聚 类 。 在 步骤 7 


中 ，b, 中 的 下 标 + 表示 max {sim(A.,A, ) 得 最 大 值 的 下 标 。 


1C 1C 1 、| CI 分 别 表示 集合 C、 集 合 C” 和 CC 中 的 元 素 个 数 。 
在 步 又 9 一 10 中 ， 按 照 文献 [13] 描 述 的 “ 微 博 短 文本 聚 类 后 其 
聚 类 结果 具有 长 尾 分 布 的 特征 ”的 思想 ， 根 据 长 尾 分 布 的 一 般 
取 值 原则 可 将 闷 值 $ 设置 为 0. 20; 通过 计算 得 到 的 K 值 即 为 
W, 中 的 大 簇 数 目 。 
2.3 ”基于 时 间 因 子 的 主题 矩阵 压缩 方法 
用 户 的 兴趣 可 以 分 为 长 期 兴趣 与 短期 兴趣 。 长 期 兴趣 是 指 
户 长 时 间 保 持 的 兴趣 偏好 ， 它 不 会 随时 间 的 流逝 而 造成 大 的 
化 ; 而 短期 兴趣 则 是 指 因 特 定 原因 导致 的 用 户 兴趣 短期 偏 移 ， 
户 在 一 定时 期 内 会 大 量 关 注 与 该 兴趣 相关 的 微 博信 
， 但 在 一 段 时 间 以 后 ， 用 户 对 该 兴趣 相关 微 博 信息 的 关注 会 
迅速 衰减 ， 甚 至 不 再 关注 。 
户 兴 趣 变 化 体现 在 用 户 发 布 的 历史 微 博 主 题 随 时 间 的 变 
化 中 ,变化 过 程 与 Ebbinghaus 遗忘 曲线 03 遵 循 同样 的 规律 , 在 
已 有 的 兴趣 范围 内 ， 新 的 兴趣 不 断 诞 生 的 同时 ， 旧 的 兴趣 也 在 
不 断 地 衰减 ， 甚 至 遗忘 。 根 据 这 一 特点 ， 本 文 提出 了 基于 时 间 


证 并 亲 虱 
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因子 的 主题 矩阵 压缩 方法 ， 根 据 记 忆 函 数 给 用 户 近期 微 博 的 主 
题 分 布 赋予 较 高 的 记忆 值 (memoryvalue)， 根 据 记 忆 值 压缩 微 
博 一 主题 矩阵 ， 获 取 用 户 一 主题 矩阵 ， 得 到 用 户 的 兴趣 主题 分 
布 。 使 得 用 户 微 博 列 表 中 近期 发 布 的 微 博 对 用 户 兴趣 的 影响 越 
大 ， 尽 可 能 减少 短期 兴趣 对 用 户 兴 趣 的 影响 ， 使 获取 的 用 户 兴 
趣 主题 分 布 更 贴近 用 户 当 前 的 兴趣 偏好 ， 并 将 微 博 一 主题 矩阵 
8 压缩 为 易于 理解 的 用 户 一 主题 矩阵 以 。 

设 用 户 u 最 近 一 条 微 博 的 发 布 时 间 为 i ， 若 
Wi ={WwisWizs…sWio} 中 第 m 个 文本 wi 的 时 间 标 记 为 如 ; 则 
兴趣 建 模 时 其 记忆 值 mv(w;,,,t,) 定义 如 下 : 
机 (4) 
其 中 : 4>0，4 越 大 , 历史 数据 的 重要 性 随时 间 降 低 的 越 快 。 

根据 式 (4), 可 以 利用 W 中 每 个 文本 对 应 的 时 间 标 记 求 取 
微 博 一 主题 矩阵 98, = {2,}2_, 每 一 行 〈 微 博 的 主题 分 布 ) 对 应 的 
记忆 值 。 


/ 
F 
/ 


mv(W 


memory value Ti a 
mv(wits) Wa [Pn Poa … Pir 
mv(wi,t, ) wo | Pi Po 1 Dox 
mv (wo,t,) Wio Po Pos ::. Poxr 
根据 记忆 值 以 及 主题 1% 对 应 的 每 一 条 微 博 维 上 的 概率 分 
布 值 ， 可 以 求 得 主题 1 在 用 户 一 主题 分 布 中 的 概率 值 PCZw) 。 
计算 公式 如 下 : 
a 。 
-| TV Wns tar | X Dr 
PT 3 ( ) | k=1,2,..,K (5) 


= 二 二 - 
uk DD mv (wt,) x pa | 


根据 式 (5) 可 以 得 到 用 户 最 终 的 兴趣 主题 分 布 
0, =(P(T), PD) P(g) 。 
2.4 TCID-MUIM 挖掘 方法 
在 中 文 微 博 平台 ， 用 户 历 史 微 博 列 表 主 要 包括 转发 微 博 与 
原创 微 博 两 种 类 型 的 微 博 。 转 发 微 博 由 转发 部 分 和 原创 部 分 组 
成 。 原 创 部 分 是 自己 对 转发 内 容 的 附加 内 容 。 同 时 ， 微 博 中 有 
一 类 特殊 的 功能 符号 一 一 话题 标签 ， 它 是 微 博 同一 类 话题 的 标 
志 ， 同 一 用 户 历 史 微 博 中 具有 相同 话题 标签 的 微 博通 常 话题 相 
关 性 加 强 。 针 对 这 一 特点 , 结合 LDA 模型 及 上 述 同义词 合并 策 
略 、 二 次 Single-pass 不 完全 聚 类 算法 、 基 于 时 间 因 子 的 主题 矩 
阵 压 缩 方 法 ， 将 TCID-MUIM 挖掘 方法 的 具体 步骤 如 算法 3 所 
不 。 


T 


算法 3 TCID-MUIM 挖掘 算法 

输入 : 用户 4 的 微 博 文本 集 D, = {di,d,s,*…, dm}。 

户 一 主题 分 布 0, 、 主 题 - 词 汇 矩阵 中 , 。 

步 又 1 对 微 博 进行 第 一 次 初始 聚 类 : 将 转发 微 博 与 转发 时 发 布 的 原创 微 
博 合并 ; 根据 提取 的 话题 标签 ， 将 含有 同一 标签 的 微 博文 本 合并 。 
步 又 2 根据 算法 1 同义词 合并 策略 , 对 步 又 1 处 理 后 的 微 博文 本 进行 同 
义 词 合并 处 理 。 

步骤 3 根据 算法 2 二 次 Single-pass 不 完全 聚 类 算法 ， 对 步骤 2 处 理 
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后 的 微 博文 本 进行 聚 类 ， 获 取 簇 文本 及 微 博 孤 点 的 集合 W,、 下 值 。 
步骤 4 将 W 作为 LDA 建 模 的 语 料 ， 天 值 设 为 LDA 建 模 的 主题 数 。 通 
过 LDA 模型 获取 用 户 世 的 微 博 -主题 矩阵 O, 、 主 题 -词汇 和 矩阵 中 。 
步骤 5 根据 3.3 节 中 描述 的 基于 时 间 因 子 的 主题 矩阵 压缩 方法 , 利用 微 
博文 本 的 时 间 标 记 计算 记忆 值 ， 将 微 博 一 主题 矩阵 ©, 压缩 为 用 户 
题 分 布 0, 。 


步骤 6 输出 用 户 


主题 分 布 0, ， 主 题 一 词汇 矩阵 中 ， 。 


3 实验 


3.1 实验 设置 

前 ， 在 国内 中 文 微 博 平台 的 相关 研究 领域 ， 还 没有 用 于 
评测 的 标准 数据 集 。 本 文通 过 firefox 浏览 器 及 疏 虫 插件 
datascraper、metastudio 获取 实验 数据 ， 采 集 了 新 浪 微 博 平 台 1 
356 位 用 户 ， 共 计 91 万 余 条 微 博 数据 。 根 据 实验 需要 ， 过 滤 掉 
其 中 历史 微 博 数 小 于 150 的 用 户 ， 将 保留 的 623 位 用 户 的 微 博 
数据 按 发 布 时 间 分 为 两 部 分 ， 其 中 发 布 时 间 较 近 的 前 50 条 微 
博 作为 测试 集 ， 其 余部 分 作为 兴趣 模型 训练 集 。 提 取 博 文 内 容 
中 的 话题 标签 属性 后 ， 对 数据 进行 去 品 处 理 、 分 词 处 理 
(ICTCLAS 分 词 系统 09)、 去 停 用 词 处 理 ， 将 处 理 后 的 数据 用 
于 实验 。 

LDA 建 模 参 数 设置 为 alpha=0.1,beta=0.1 ,iter times=100; 
TCID-MUIM 方法 中 涉及 的 参数 ,分 别 将 阔 值 参数 设置 为 =3， 
t=0.25 ，=0.20 ， 比 较 次 数 设 置 为 m=100 。 

3.2 ”主题 有 效 性 

微 博 主题 挖掘 的 目标 是 从 海量 信息 中 挖掘 出 能 代表 用 户 兴 
趣 的 兴趣 主题 ， 并 匹配 相关 性 高 的 词汇 描述 主题 ， 词 汇 与 主题 
的 匹配 程度 越 高 ， 则 认为 主题 有 效 性 越 高 。 为 了 验证 TCID- 
MUIM 挖掘 方法 的 有 效 性 ， 实 验 另 设置 了 以 下 两 种 方法 进行 对 
比 : 
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a) 文本 合并 (text merge，TM)。 将 用 户 的 所 有 历史 微 博 合 
为 一 个 文本 ， 使 用 LDA 模型 对 合并 后 的 文本 建 模 。 
b) 传统 方法 (conventional method，CM)。 不 对 文档 进行 


同义词 合并 、 聚 类 处 理 , 直接 使 用 LDA 模型 对 用 户 微 博文 本 集 
建 模 。 
三 种 方法 的 建 模 主 题 数 K 设 定 为 TCID-MUIM 挖掘 方法 中 


确定 的 大 簇 数 目 。 表 2 显示 了 三 种 方法 下 用 户 兴趣 挖掘 的 实验 
结果 。 限 于 篇 幅 ， 表 中 只 列 出 clueid 为 121365465 的 用 户 根据 
三 种 方法 所 获取 的 3 个 兴趣 主题 , 每 个 主题 由 概率 最 大 的 前 10 
个 单词 表示 。 通 过 观察 主题 所 属 词汇 并 比 对 数据 可 以 看 出 ， 这 
3 个 主题 分 别 描 述 的 是 与 医 患 关系 、 法 治 、 教 育 相关 的 主题 ; 
虽然 三 种 方法 所 挖掘 的 主题 都 能 在 一 定 程度 上 表达 用 户 兴 趣 ， 
但 TCID-MUIM 挖掘 方法 挖掘 到 的 主题 与 其 对 应 的 关键 词汇 匹 
配 准 确 率 较 高 ， 主 题 集 中 性 更 强 。 例 如 在 Topic 1st 中 ，TCID- 
MUIM 方法 下 的 关键 词 都 与 医 患 关系 有 很 强 的 相关 性 ， 而 TM 
与 CM 方法 下 的 关键 词 中 却 存 在 法 治 、 政 府 等 相关 性 较 低 的 词 
汇 。 
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长 2 ”主题 有 效 性 对 比 
TOPIC 1st TOPIC 2nd TOPIC 3rd 
TCID-MUIM TM CM TCID-MUIM TM CM TCID-MUIM TM CM 
医院 0.0174 治疗 0.0058 医院 0.0199 ”律师 0.0288 违法 0.0048 律师 0.0216 学 生 0.0273 教师 0.0211 学 生 0.0234 
患者 0.0059 法 治 0.0048 北京 0.0107 取保 候审 0.0087 反抗 0.0043 法 院 0.0108 学 校 0.0098 教授 0.0195 学 校 0.0113 
医生 0.0059 医院 0.0043 患者 0.0080 ”法院 ”0.0077 犯罪 0.0043 国家 0.0089 研究 0.0091 大 学 0.0120 大 学 0.0106 
百度 0.0059 死亡 0.0039 政府 0.0067 组织 ”0.0053 律师 0.0037 公开 0.0083 教育 0.0082 学 院 0.0102 校方 0.0082 
医疗 0.0056 魏 则 西 0.0037 百度 0.0062 人权 ”0.0048 行政 0.0037 国际 0.0073 大 学 0.0078 学 生 0.0085 校长 0.0067 
魏 则 西 0.0051 北京 0.0037 莆田 0.0053 ”涉嫌 ”0.0048 法 官 0.0037 判决 0.0070 同学 0.0069 教育 0.0082 政府 0.0063 
莆田 0.0051 身体 0.0032 魏 则 西 0.0053 罪名 0.0044 人 权 0.0037 政府 0.0051 小 学 0.0062 校长 0.0079 老师 0.0059 
良心 0.0043 良心 0.0032 医疗 0.0049 “” 霸 押 ”0.0044 披露 0.0037 庭审 0.0051 老师 0.0056 政府 0.0069 教育 0.0059 
家 属 0.0039 记者 0.0032 医生 0.0049 ”庭审 0.0039 酒店 0.0037 要 求 0.0048 文化 0.0052 北京 0.0067 研究 0.0051 
北京 0.0034 医疗 0.0032 记者 0.0045 ”判决 0.0039 仲裁 0.0032 案件 0.0048 实验 0.0049 文化 0.0061 文化 0.0043 


3.3 ”主题 差异 性 掘 方法 的 主题 建 模 效 果 。 评 价 指标 选择 预测 准确 率 、 漏 检 率 以 
主题 差异 性 是 指 主题 模型 生成 的 主题 分 布 间 的 差异 程度 。 及 本 文 自 定义 的 概率 准确 率 。 具 体 的 计算 公式 如 下 : 

主题 模型 的 思想 是 , 建 模 后 主题 间 的 差异 度 越 大 、 相 似 度 越 小 ， pVNe gl) 

则 认为 主题 越 有 代表 性 ， 模 型 的 建 模 效果 越 好 。 基 于 此 ， 本 文 Nr 


通过 距离 测度 的 方法 度量 主题 模型 建 模 后 获取 的 主题 分 布 间 的 。 其中: P 表 示 预 测 准 确 率 ; Nc 表示 测量 数据 中 属于 用 户 兴趣 主 
差异 性 , 以 此 衡量 TCID-MUIM 建 模 方 法 的 性 能 。 具 体 方法 是 : 题 的 微 博 数 ，N; 表示 测量 数据 中 的 微 博 总 数 。 


首先 ， 通 过 度量 两 个 概率 分 布 间 差异 程度 的 jensen-shannon(JS) p MN 而 
距离 计算 模型 生成 的 各 个 主题 间 的 差异 度 ; 然后 ， 根 据 上 一 步 NWN 
又 的 计算 结果 计算 主题 平均 差异 度 ， 并 将 平均 差异 度 作 为 衡量 其 中 :， 忆 表示 漏 检 率 ;， Nw 表示 测量 数据 中 与 用 户 兴 趣 主题 
模型 主题 差异 性 的 指标 。 不 相关 的 微 博 数 ，N7z 表示 测量 数据 中 的 微 博 总 数 。 
ee 本 本 Be= Pap i 
Dot0.00 -3 ou, 2 | (0 其中， Pe 表示 概率 准确 率 ; Ps 是 用 户 兴趣 主题 分 布 
p+9; n 2p,, 0, = (PusPu2… Pnx) 中 第 i 个 兴趣 主题 的 分 布 概率 ;ci; 是 测量 
大 的 一 0 a Nl 
Pat Pi 数据 中 属于 第 个 兴趣 主题 的 微 博 数目 。 为 了 在 图 表 中 更 直观 
其 中 : 见 =(D PPDo) 与 9;==(PjPjz…;Pin) 分 别 是 两 个 主 的 展示 三 种 方法 下 的 Bc ， 选 择 将 三 种 方法 下 的 Pc 值 归 一 化 
题 工 与 的 词 概 率 分 布 。 处 理 ， 并 放大 一 倍 。 
本 实验 通过 上 述 方法 度量 TCID-MUIM、TM 和 CM 三 种 图 4 显示 了 在 采用 LDA 模型 进行 用 户 兴趣 建 模 的 条 件 下 ， 


建 模 方法 的 主题 差异 性 ,三 种 建 模 方法 中 两 两 主题 之 间 的 JS 平 ”TCID-MUIM、CM、TM 三 种 不 同 用 户 兴趣 挖掘 方法 进行 兴趣 
均 距 离 比较 如 表 3 所 示 。 可 以 看 出 ， 三 种 建 模 方法 中 TM 方法 主题 挖掘 的 实验 对 比 效 果 。 观 察 可 发 现 , CM 与 TM 方法 相 比 ， 
的 主题 差异 性 (JS 值 ) 相 较 于 其 他 两 种 建 模 方法 较 低 ， 这 可 能 ” TM 方法 概率 准确 率 高 于 CM, 但 预测 准确 率 低 于 CM, 这 可 能 
是 由 于 强行 抹 去 文本 边界 的 原因 ; 而 TCID-MUIM 方法 在 三 种 是 由 于 TM 方法 将 所 有 微 博 文本 合 为 一 个 文档 ， 导 致 主题 集中 
建 模 方法 中 的 JS 值 相对 较 大 , 具有 更 好 的 主题 差异 性 , 说 明了 ” 性 强 ， 单 一 主题 概率 高 ， 但 主题 区 分 度 较 低 ， 不 能 更 大 范围 地 


对 微 博 进行 同义词 合并 及 不 完全 聚 类 能 够 帮助 主题 模型 发 现 更 涵盖 用 户 兴 趣 偏好 所 致 ， 而 TCID-MUIM 方法 因 将 文本 语 料 进 
具 代 表 性 的 主题 。 行 了 不 完全 聚 类 处 理 ， 保 证 了 主题 的 集中 性 ， 同 时 考虑 了 兴趣 
表 3 三 种 建 模 方法 JS 距离 比较 衰减 问题 ， 保 证 了 主题 与 用 户 实时 兴趣 的 贴 合 性 ， 所 以 TCID- 
建 模 方法 JS 距离 MUIM 与 CM、TM 方法 相 比 在 三 种 评价 指标 下 都 具有 明显 优 
势 。 
TCID 0.368191 
T™ 0.297962 4 结束 语 
CM 0.353599 


本 文 针 对 直接 使 用 LDA 模型 挖掘 用 户 兴 趣 时 存在 的 微 博 
3.4 兴趣 挖掘 效果 对 比 文本 长 度 较 短 、 语 义 信息 缺乏 影响 主题 建 模 效果 以 及 没有 考虑 

为 了 判断 TCID-MUIM 挖掘 用 户 兴趣 的 准确 度 ， 本 文 将 用 用户 兴趣 随时 间 变 化 的 问题 ， 提 出 了 基于 文本 聚 类 与 兴趣 衰减 
户 最 新 发 布 的 50 条 微 博 作 为 测量 数据 ， 其 余部 分 的 微 博 用 作 ”的 微 博 用 户 兴 趣 挖掘 算法 TCID-MUIM, 通过 同义词 合并 策略 、 
用 户 兴 趣 主题 建 模 数 据 ， 对 比 TCID-MUIM、CM、TM 三 种 控 。 ”二 次 Single-pass 不 完全 聚 类 算法 、LDA 模型 建 模 方 法 以 及 基于 


录用 


时 间 
数据 集 上 对 TCID-MUIM 相关 实验 验证 进行 实验 ， 


稿 


因子 的 主题 矩阵 压缩 方法 挖掘 用 


户 久 . 
a 


在 真实 微 博 
实验 结果 表 


让 主题。 


TCID-MUIM 方法 挖掘 的 用 户 兴 趣 主题 与 TM、CM 方 


法 


下 一 步 工 作 需 要 解决 的 问题 是 ) 
考虑 是 否 可 以 利用 用 
趣 模型 。 


明 通过 


有 比 具有 更 好 的 主题 区 分 度 , 且 更 贴 合用 户 的 真实 兴趣 偏好 。 
户 兴趣 控 所 中 的 冷 启动 问题 
户 其 他 网 站 上 的 历史 数据 信息 构建 用 


户 久 
Ay 


0.9 国 TCID-MUIM 口 TM 


概率 准确 率 预测 准确 率 漏 测 率 
图 4 用 户 兴 趣 挖掘 方法 效果 对 比 
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